Introduction
Dans le cadre de notre projet de statistiques, nous travaillerons sur
un jeu de données environnementales. Ce jeu de données est composé de
plusieurs fichiers qui contiennent des informations sur les oiseaux, les
stations de mesure, les caractéristiques des oiseaux, leurs régimes
alimentaires et la biodiversité.
Ce rapport a pour objectif de présenter les différentes analyses que
nous avons réalisées sur ces données. Il est composé de trois parties
principales dans lesquelles nous explorons les relations entre la
diversité des espèces d’oiseaux, l’artificialisation des sols et la
distance avec le centre-ville de Bordeaux. Nous avons également étudié
les régimes alimentaires des oiseaux et les modes de nidification en
fonction de certaines zones géographiques.
Vous trouverez des cartes, des graphiques, des tableaux, un sankie
plot ainsi qu’un sunburst plot qui nous permettront de découvrir la
mesure de la biodiversité.
L’ensemble de ces données sont tirées du travail des membres de
l’INRAE unité BioGeCo et du bureau de télédetection I-sea.
Vous trouverez de nombreux résultats comme plusieurs courbes de
diversité révélant la baisse significative de diversité dans les lieux
les plus artificialisés. Vous trouverez également l’entièreté de notre
cheminement pour arriver à nos résultats statistiques, notamment
concernant la distribution des espèces d’oiseaux observées en Gironde,
mais aussi des statistiques multivariées et descriptives.
Nous vous invitons à découvrir l’ensemble de nos analyses et à
explorer les différentes visualisations que nous avons réalisées pour
mieux comprendre les relations entre les différentes variables de notre
jeu de données. Toutes nos visualisations sont interactives et vous
permettent de zoomer, de déplacer et de cliquer sur les différents
éléments pour obtenir plus d’informations. Cela vous permettra d’avoir
une expérience plus immersive et vous permettra de créer vos propres
analyses, en parallèle à celles réalisées par nos soins.
Exploration des données
Pour commencer, nous chargeons les données et nous les explorons pour
mieux comprendre leur structure. Dans un premier temps, nous allons
ajouter une colonne à notre DataFrame qui contient les noms latins des
oiseaux afin de facilliter les analyses par la suite.
oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LE NOM LATIN DE L'OISEAU
my_split <- function(array, str = " \\| ") {
out <- rep(NA, length(array))
for (i in 1:length(array)) {
out[i] <- unlist(strsplit(array[i], str))[1]
}
return(out)
}
only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))
oiseaux$latin <- only_latin
oiseaux$annee <- as.numeric(substr(oiseaux$Date, 1, 4))
Par la suite, nous allons explorer les données pour mieux comprendre
la distribution des espèces d’oiseaux observées. Voici un tableau qui
montre les 10 espèces d’oiseaux les plus fréquemment observées dans
l’ensemble des données.
# LES ESPÈCES D'OISEAUX LES PLUS FRÉQUENTES OBSERVÉES DANS L'ENSEMBLE DES DONNÉES
as.data.frame(sort(table(oiseaux$latin), decreasing = TRUE)[1:10])
Nous allons maintenant explorer la fréquence des espèces d’oiseaux
observées dans l’ensemble des données par année. Voici, par ordre
alphabétique, le tableau mettant en évidence cette fréquence.
# FRÉQUENCE DES ESPÈCES D'OISEAUX OBSERVÉES DANS L'ENSEMBLE DES DONNÉES PAR ANNÉE
Annee <- my_split(as.vector(oiseaux$Date), str = "-")
oiseaux$Annee <- as.factor(Annee)
as.data.frame.matrix(table(oiseaux$latin, oiseaux$Annee))
Dans cette partie, nous allons explorer la mesure de la diversité à à
l’aide de plusieurs entropies. Nous nous intéresserons uniquement au
MOS11, c’est à dire les surfaces artificialisées. On prend comme buffer
size 500m.
Dans un premier temps, nous allons utiliser la proportion d’espèces
différentes observées dans une station pour mesurer la diversité. Dans
un deuxième temps, nous allons utiliser l’entropie de Shannon et enfin
l’indice de Simpson.
## Analyse de diversité par rapport à MOS11 et par année
denombrement <- oiseaux %>%
group_by(Code_Maille, annee, latin) %>%
summarise(sum = sum(Denombrement_min, na.rm = TRUE), .groups = "drop") %>%
arrange(desc(Code_Maille))
denombrement$p <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
numerator <- denombrement$sum[i]
denominator <-
sum(denombrement$sum[which(denombrement$Code_Maille == denombrement$Code_Maille[i]
& denombrement$annee == denombrement$annee[i])])
denombrement$p[i] <- numerator / denominator
}
index <- denombrement %>%
group_by(Code_Maille, annee = factor(annee)) %>%
summarise(D1 = sum(p > 0, na.rm = TRUE),
D2 = exp(-sum(p * log(p))),
D3 = 1 / sum(p^2), .groups = "drop") %>%
arrange(desc(Code_Maille))
LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
index$MOS11 <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
index$MOS11[i] <- LUP$MOS11[which(index$Code_Maille[i] == LUP$ID & LUP$BufferSize == 500)]
}
Voici le graphique qui montre la relation entre la diversité et MOS11
pour chaque année expliquée par la proportion d’espèces.
ggplot(index, aes(x = MOS11, y = D1, color = as.factor(annee))) +
geom_point(size = 2) +
geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
labs(title = " Proportion d’espèces en fonction de MOS11",
x = "MOS11",
y = "Nombre d\'espèces") +
theme_minimal() +
labs(colour = "Année") +
theme(legend.position = "bottom")

Ceci est le graphique qui montre la relation entre la diversité et
MOS11 pour chaque année expliquée par l’entropie de Shannon.
ggplot(index, aes(x = MOS11, y = D2, color = as.factor(annee))) +
geom_point(size = 2) +
geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
labs(title = "Indice de Shanon en fonction de MOS11",
x = "MOS11",
y = "Indice de Shanon") +
theme_minimal() +
labs(colour = "Année") +
theme(legend.position = "bottom")

Ceci est le graphique qui montre la relation entre la diversité et
MOS11 pour chaque année expliquée par l’indice de Simpson.
ggplot(index, aes(x = MOS11, y = D3, color = as.factor(annee))) +
geom_point(size = 2) +
geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
labs(title = "Indice de Simpson en fonction de MOS11",
x = "MOS11",
y = "Indice de Simpson") +
theme_minimal() +
labs(colour = "Année") +
theme(legend.position = "bottom")

La tendance globale est l’augmentation de la diversité au début de la
courbe jusqu’à atteindre un maximum puis une baisse quand le MOS11
augmente davantage. C’est-à-dire que, moins les sols sont
artificialisés, plus la diversité est grande avec une diversité maximale
atteinte quand le milieu est à la fois artificialisé mais présente
également des surfaces non artificialisées.
Notre deuxième partie se portera sur l’analyse de la diversité des
espèces d’oiseaux en fonction de la distance avec le centre-ville de
Bordeaux. On observera une tendance de diversité par rapport à la
distance de la maille avec le centre ville qui diffère légèrement par
rapport aux résultats ci-dessus. Pour ce faire, nous allons calculer
toutes les distances de chaque maille à PeyBerland, qui sera notre point
référent pour le centre.
Tendance de diversité par rapport à la distance avec le
centre-ville
PeyBerland <- data.frame("Latitude" = 44.838168, "Longitude" = -0.578803)
# On convertit les coordonnées de PeyBerland en sf
PeyBerland <- st_as_sf(PeyBerland, coords = c("Longitude", "Latitude"), crs = 4326)
# On va créer un dataframe qui contient les coordonnées de toutes les stations code_maille
coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)
# On va transformer les coordonnées de 2154 à 4326
coordinates <- st_transform(coordinates, crs = 4326)
# On va calculer les distances entre les stations et le centre ville PeyBerland
coordinates$Distance <- st_distance(coordinates, PeyBerland)
On ajoute les distances à nos données de diversité.
index$Distance <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
index$Distance[i] <- coordinates$Distance[which(index$Code_Maille[i] == coordinates$ID & coordinates$BufferSize == 500)]
}
par(mfrow = c(1, 3))
Pour faire l’analyse, on utilise les trois mesures de diversité que
nous avons utilisées précédemment.
Voici la courbe de diversité expliquée par la proportion
d’espèces.
ggplot(index, aes(x = Distance, y = D1, color = as.factor(annee))) +
geom_point(size = 2) +
geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
labs(title = "D1 en fonction de la distance au centre-ville",
x = "Distance",
y = "D1") +
theme_minimal() +
theme(legend.position = "bottom")
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

Voici la courbe de diversité expliquée par l’entropie de Shannon.
ggplot(index, aes(x = Distance, y = D2, color = as.factor(annee))) +
geom_point(size = 2) +
geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
labs(title = "D2 en fonction de la distance au centre-ville",
x = "Distance",
y = "D2") +
theme_minimal() +
theme(legend.position = "bottom")
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

Voici la courbe de diversité expliquée par l’indice de Simpson.
ggplot(index, aes(x = Distance, y = D3, color = as.factor(annee))) +
geom_point(size = 2) +
geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
labs(title = "D3 en fonction de la distance au centre-ville",
x = "Distance",
y = "D3") +
theme_minimal() +
theme(legend.position = "bottom")
## `geom_smooth()` using method = 'loess' and formula = 'y ~ x'

La tendance globale est l’augmentation de la diversité au début de la
courbe jusqu’à atteindre un maximum puis une baisse quand la distance
avec le centre-ville augmente davantage. Nous pouvons voir que pour nos
trois mesures de diversité, le pic est atteint à environ 9km. La
diversité est donc plus grande lorsque la maille se trouver à environ
9km du centre-ville. Nous retrouvons donc la même observation qu’avec la
variable d’artificialisation des sols (MOSS11), car l’artificialisation
des sols et la distance avec le centre ville sont positivement corrélées
(peut-etre essayer de mesurer la correlation entre ces deux variables
sur nos données)
Par la suite, l’objectif va être de comprendre pourquoi ce pic de
diversité des espèces est observé à ce pourcentage d’artificialisation.
Pour ce faire, nous allons introduire un nouveau jeu de données sur les
caractéristiques des espèces d’oiseaux. Nous allons combiner ce jeu de
données avec les autres jeux de données afin d’en tirer des analyses,
principalement grâce à des cartes interactives.
oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LE NOM LATIN DE L'OISEAU
# LE NOM LATIN EST LE PREMIER NOM DE LA COLONNE "Nom_Taxon_Cite
# SI LE NOM CONTIENT UN "|", LE NOM LATIN EST LE PREMIER NOM AVANT LE "|"
# Diviser les noms
my_split <- function(array, str = " \\| ") {
out <- rep(NA, length(array))
for (i in 1:length(array)) {
out[i] <- unlist(strsplit(array[i], str))[1]
}
return(out)
}
# Tester la fonction
only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))
# On ajoute la nouvelle colonne au dataframe
oiseaux$latin <- only_latin
Voici le tableau qui représente le MOS11 pour chaque station de
mesure. Cette mesure nous indique à quel point le sol est
artificialisé.
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LA VALEUR MOS11 DU POINT
filter <- LUP$BufferSize == 500
LUP_500_MOS11 <- LUP[filter, c("Geometry", "ID", "X", "Y", "BufferSize", "MOS11")]
rownames(LUP_500_MOS11) <- 1:nrow(LUP_500_MOS11)
LUP_500_MOS11[, c("ID", "MOS11")]
MOS11 <- rep(NA, nrow(oiseaux))
for (i in 1:nrow(oiseaux)) {
MOS11[i] <- which(oiseaux$Code_Maille[i] == LUP_500_MOS11$ID)
}
# Ajouter la colonne MOS11 au dataframe
oiseaux$MOS11 <- LUP_500_MOS11$MOS11[MOS11]
Analyses intéractives et géographiques
oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
# CREATE A NEW COLUMN IN THE OISEAUX DATAFRAME THAT CONTAINS THE LATIN NAME OF THE BIRD
my_split <- function(array, str = " \\| ") {
out <- rep(NA, length(array))
for (i in 1:length(array)) {
out[i] <- unlist(strsplit(array[i], str))[1]
}
return (out)
}
only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))
# length(unique(only_latin)) == length(unique(oiseaux$Code_Ref))
oiseaux$latin <- only_latin
oiseaux$annee <- as.numeric(substr(oiseaux$Date, 1, 4))
denombrement <- oiseaux %>%
group_by(Code_Maille, annee, latin) %>%
summarise(sum = sum(Denombrement_min, na.rm = TRUE), .groups = 'drop') %>%
arrange(desc(Code_Maille))
denombrement$p <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
numerator <- denombrement$sum[i]
denominator <-
sum(denombrement$sum[which(denombrement$Code_Maille == denombrement$Code_Maille[i]
& denombrement$annee == denombrement$annee[i])])
denombrement$p[i] <- numerator / denominator
}
index <- denombrement %>%
group_by(Code_Maille, annee = factor(annee)) %>%
summarise(D1 = sum(p > 0, na.rm = TRUE),
D2 = exp(-sum(p*log(p))),
D3 = 1 / sum(p^2), .groups = 'drop') %>%
arrange(desc(Code_Maille))
LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
index$MOS11 <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
index$MOS11[i] <- LUP$MOS11[which(index$Code_Maille[i] == LUP$ID & LUP$BufferSize == 1000)]
}
traits <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
cite <- read.csv("data/birds/BiodiverCite_sites.csv", header = TRUE, sep=";")
#on veut traiter la table dénombrement qu'on appelera denombrementCarte où il restera pour chaque maille et pour chaque année le top 3 des oiseaux les plus observés sans la variable p
denombrementCarte <- denombrement %>%
group_by(Code_Maille, annee) %>%
top_n(3, sum) %>%
arrange(Code_Maille, annee, desc(sum)) %>%
ungroup() %>%
select(-p)
#on veut changer cette table pour faire apparaitre de nouvelles colonnes pour qu'il y ait : une ligne par maille et par année, et pour chaque oiseau, le nombre d'individus observés
denombrementCarte <- denombrementCarte %>%
pivot_wider(names_from = latin, values_from = sum, values_fill = 0)
#on veut ajouter les colonnes geometry, buffer size et MOS11 à la table denombrementCarte et pas les autres
denombrementCarte <- left_join(denombrementCarte, LUP, by = c("Code_Maille" = "ID"))
#on enlève les colonnes : MOS1, MOS2, MOS3, MOS4, MOS5, MOS6, MOS7, MOS8, MOS9, MOS10, MOS12, MOS13, MOS14
denombrementCarte <- denombrementCarte %>%
select(-c(MOS1, MOS2, MOS3, MOS4, MOS5, MOS6, MOS7, MOS8, MOS9, MOS10, MOS12, MOS13, MOS14))
# On garde que les lignes ou BufferSize == 500
denombrementCarte <- denombrementCarte %>%
filter(BufferSize == 500)
denombrementCarte <- st_as_sf(denombrementCarte, coords = c("X", "Y"), crs = 2154)
denombrementCarte <- st_transform(denombrementCarte, crs = 4326)
# On garde seuelement les valeurs ou annee = 2018
denombrementCarte <- denombrementCarte %>%
filter(annee == 2023)
denombrementCarte
Grâce à ce tableau, nous pouvons voir comment les données sont
structurées et remarquer notamment qu’il classe le nombre d’oiseaux par
maille et par année.
Dans la suite de ce rapport vous trouverez des analyses géographiques
et interactives qui vous permettront de visualiser comment les oiseaux
de la Gironde évoluent en fonction de l’artificialisation des sols. Vous
y trouverez des analyses sur les régimes alimentaires des oiseaux, les
niveaux de spécialisation des oiseaux en fonction de leur habitat
(Maille).
Voici la carte interactive qui montre les mailles de mesure et les
oiseaux les plus observés dans chaque maille. Nous vous invitons à
cliquer sur les cercles pour obtenir toutes les informations sur les
oiseaux.
# On garder que les colonnes qui nous intéressent, cad code_site et Nom_lieu
cite <- read.csv("data/birds/BiodiverCite_sites.csv", header = TRUE, sep=";")
cite <- cite %>%
select(code_site, Nom_lieu)
#On join les deux tables cite et denombrementCarte
denombrementCarte <- left_join(denombrementCarte, cite, by = c("Code_Maille" = "code_site"))
# Créer une chaîne de caractères pour les popups avec le top trois des oiseaux ayant la plus grande valeur
denombrementCarte$popup_text <- paste0("<strong>Maille:</strong> ", denombrementCarte$Nom_lieu, "<br>",
"<strong>Année:</strong> ", denombrementCarte$annee, "<br>",
"<strong>Top 3 des oiseaux:</strong>", "<br>")
dataframe <- as.data.frame(denombrementCarte)
# On enleve les colonnes Code_Maille, annee, BufferSize, MOS11, Geometry, geometry
dataframe <- dataframe %>%
select(-c(Code_Maille, annee, BufferSize, MOS11, Geometry, geometry, Nom_lieu))
# Ajouter les noms des oiseaux et leurs valeurs au popup_text pour chaque ligne
for (i in 1:nrow(dataframe)) {
top_birds <- sort(unlist(dataframe[i, -c(ncol(dataframe))]), decreasing = TRUE)[1:3]
top_bird_names <- names(top_birds)
denombrementCarte$popup_text[i] <- paste0(denombrementCarte$popup_text[i],
top_bird_names[1], ": ", top_birds[1], " - ", traits[which(traits$Nom.latin == top_bird_names[1]), "Niveau.de.spécialisation"], "<br>",
top_bird_names[2], ": ", top_birds[2], " - ", traits[which(traits$Nom.latin == top_bird_names[2]), "Niveau.de.spécialisation"], "<br>",
top_bird_names[3], ": ", top_birds[3], " - ", traits[which(traits$Nom.latin == top_bird_names[3]), "Niveau.de.spécialisation"])
}
pal <- colorNumeric("viridis", domain = denombrementCarte$MOS11)
leaflet(data = denombrementCarte) %>%
addProviderTiles("CartoDB.Positron") %>%
addCircles(radius = 300, color = ~pal(MOS11), fillOpacity = 0.2, popup = ~popup_text) %>%
addLegend("bottomright", pal = pal, values = ~MOS11, title = "MOS11", position = "bottomright") %>%
addScaleBar(position = "bottomleft")
Grâce à cette carte, nous obtenons le classement (Top 3) des oiseaux
les plus observés dans chaque maille de mesure pour l’année 2023. Nous
avons également ajouté une information supplémentaire sur chaque oiseau
pour mettre en évidence son niveau de spécialisation afin de mieux
comprendre de quel type de milieu il a besoin pour vivre et la
géolocalisation sur la Gironde.
Nous pouvons voir que le niveau de spécialisation le plus répendu est
généraliste car on en retrouve au centre-ville et en périphérie.
Egalement, au centre ville, on retrouve des oiseaux de type Bâti et en
périphérie loins du centre-ville, on retrouve des oiseaux de type Fôret
et Agricole. Proche des points d’eau, on trouve des oiseaux de type Zone
humide.
Ainsi, les zones qui combinent à la fois végétation et bâtiments
seraient plus susceptibles d’accueillir des oiseaux avec des niveaux de
spécialisation variés, ce qui expliquerait l’augmentation du taux de
diversité observée dans les zones où se mélangent espaces verts et zones
urbanisées.
Il nous semblait intéressant de savoir quels étaient les régimes
alimentaires majoritaires principaux en fonction de chaque maille. Nous
avons donc créé un graphique qui montre la répartition des régimes
alimentaires pour chaque maille.
# changed the unmatchinng latin names to the correct ones to match alimentation
denombrement$latin[denombrement$latin == "Carduelis chloris"] <- "Chloris chloris"
denombrement$latin[denombrement$latin == "Carduelis spinus"] <- "Spinus spinus"
denombrement$latin[denombrement$latin == "Casmerodius albus"] <- "Ardea alba"
denombrement$latin[denombrement$latin == "Carduelis cannabina"] <- "Linaria cannabina"
no_info <- c("Himantopus himantopus", "Tringa ochropus",
"Caprimulgus europaeus", "Lanius senator",
"Dryocopus martius", "Emberiza calandra")
alimentation <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
denombrement$regime_alimentaire <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
if (denombrement$latin[i] %in% no_info){
denombrement$regime_alimentaire[i] <- NA
}
else {
denombrement$regime_alimentaire[i] <-
alimentation$Régime.alimentaire[which(alimentation$Nom.latin == denombrement$latin[i])]
}
}
denombrement$regime_alimentaire <- as.factor(denombrement$regime_alimentaire)
plot_data = function (data, title) {
ggplot(data, aes(x="", y=sum, fill=regime_alimentaire)) +
geom_bar(stat="identity", width=0.1) +
coord_polar("y", start=0) +
ggtitle(paste("Station: ", as.character(title))) +
theme_void()
}
cite <- cite %>%
select(code_site, Nom_lieu)
#On join les deux tables cite et denombrementCarte
denombrement <- left_join(denombrement, cite, by = c("Code_Maille" = "code_site"))
N <- length(unique(denombrement$Code_Maille))
p <- vector("list", length = N)
for (i in 1:N) {
data <- denombrement[which(denombrement$Code_Maille == unique(denombrement$Code_Maille)[i]),]
data <- data %>% group_by(regime_alimentaire) %>% summarise(sum = sum(p, na.rm = TRUE))
p[[i]] <- plot_data(data, unique(denombrement$Nom_lieu)[i])
}
coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)
coordinates <- st_transform(coordinates, crs = 4326)
coordinates <- coordinates[coordinates$BufferSize == 500,]
# Remove the coordinates that are not in denombrement
for (i in seq_along(coordinates$ID)){
if (!(coordinates$ID[i] %in% unique(denombrement$Code_Maille))){
coordinates <- coordinates[-i,]
}
}
coordinates <- coordinates[order(coordinates$ID, decreasing = TRUE),]
pal <- colorNumeric("viridis", domain = coordinates$MOS11)
leaflet(data = coordinates) %>%
addProviderTiles("CartoDB.Positron") %>%
addCircles(radius = 300, color = ~pal(MOS11),
fillOpacity = 0.5, group = "pnt") %>%
addLegend("bottomright", pal = pal, values = coordinates$MOS11, title = "MOS11") %>%
addScaleBar(position = "bottomleft") %>%
addPopupGraphs(p, width = 200, height = 200, group = "pnt")
Voici à quoi ressemble la carte interactive qui montre les régimes
alimentaires majoritaires principaux en fonction de chaque maille. Nous
pouvons voir qu’en général, le régime alimentaire dominant est le régime
alimentaire mixte, que cela soit au centre de Bordeaux ou en périphérie.
Il semble donc que le régime alimentaire de l’oiseau ne soit pas
véritablement impacté par l’artificialisation des sols. Essayons
maintenant d’étudier d’autre caratéristiques afin d’essayer de trouver
des raisons à ce pic de diversité.
denombrement$Nidification <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
if (denombrement$latin[i] %in% no_info){
denombrement$Nidification[i] <- NA
}
else {
denombrement$Nidification[i] <-
alimentation$Nidification[which(alimentation$Nom.latin == denombrement$latin[i])]
}
}
denombrement$Nidification <- as.factor(denombrement$Nidification)
plot_data = function (data, title) {
ggplot(data, aes(x="", y=sum, fill=Nidification)) +
geom_bar(stat="identity", width=0.1) +
coord_polar("y", start=0) +
ggtitle(paste("Station: ", as.character(title))) +
theme_void()
}
#On join les deux tables cite et denombrementCarte
N <- length(unique(denombrement$Code_Maille))
p <- vector("list", length = N)
for (i in 1:N) {
data <- denombrement[which(denombrement$Code_Maille == unique(denombrement$Code_Maille)[i]),]
data <- data %>% group_by(Nidification) %>% summarise(sum = sum(p, na.rm = TRUE))
p[[i]] <- plot_data(data, unique(denombrement$Nom_lieu)[i])
}
coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)
coordinates <- st_transform(coordinates, crs = 4326)
coordinates <- coordinates[coordinates$BufferSize == 500,]
# Remove the coordinates that are not in denombrement
for (i in seq_along(coordinates$ID)){
if (!(coordinates$ID[i] %in% unique(denombrement$Code_Maille))){
coordinates <- coordinates[-i,]
}
}
coordinates <- coordinates[order(coordinates$ID, decreasing = TRUE),]
pal <- colorNumeric("viridis", domain = coordinates$MOS11)
leaflet(data = coordinates) %>%
addProviderTiles("CartoDB.Positron") %>%
addCircles(radius = 300, color = ~pal(MOS11),
fillOpacity = 0.5, group = "pnt2") %>%
addLegend("bottomright", pal = pal, values = coordinates$MOS11, title = "MOS11") %>%
addScaleBar(position = "bottomleft") %>%
addPopupGraphs(p, width = 200, height = 200, group = "pnt2")
Cette carte illustre la répartition des types de nidification en
fonction des zones géographiques. Il est observé que dans les zones
centrales, la majorité des nids sont situés dans des cavités, ce qui
peut être attribué à la densité élevée de bâtiments et à la rareté de la
végétation en ville. Le mode de nidification au sol est le moins courant
dans ces zones, probablement en raison de la faible probabilité de
survie des oiseaux dans un environnement urbain avec un nid au sol.
En périphérie, les modes de nidification semblent plus diversifiés,
avec une prédominance de la nidification en buisson. La nidification
dans les arbres est également très répandue, et on retrouve aussi la
nidification en cavité. Le fait de ne pas être situé directement au
centre-ville semble offrir plus de possibilités de nidification, ce qui
pourrait expliquer une plus grande diversité d’espèces si on s’éloigne
légèrement du centre ville, grâce à une combinaison de bâtiments et de
végétation offrant plus de choix pour la nidification.
Pour aller plus loin
Cette section est dédiée à des analyses plus poussées qui pourraient
être réalisées pour mieux comprendre les données et les relations entre
les différentes variables. Vous trouverez un Parallel Coordinates Plot
ainsi qu’un sun burst plot qui illustrent les caractéristiques des
différentes espèces d’oiseaux.
Voici, ci-dessous le Parallel Coordinates Plot intéractif. Vous
pouvez cliquer sur les différentes espèces pour obtenir plus
d’informations sur chacune d’elles.
Exemple d’utilisation :
- Nous voulons savoir le régime alimentaire des oiseaux qui migrent.
Pour cela, il suffit de cliquer au niveau de “migrateur tardif” et de
cliquer sur “Végétarien”, “Mixte” ou “carnivore” pour obtenir les
espèces d’oiseaux qui correspondent à ces critères. Ceci est très utile
lorsqu’on veut comparer le nombre d’oiseau selon les caractéristiques
choisies ou même simplement rechercher l’espèce qui correspond à
certains critères que l’on veut étudier. Pour finir l’exemple, si on
clique au niveau de “Migrateur tardif”, on remarque qu’aucun oiseau
n’est végétarien. De plus, on peut affiner notre sélection pour voir
quelles espèces d’oiseaux sont des migrateurs tardifs et font leur nid
dans les buissons. On clique ainsi sur buisson et on voit que l’espèce
“Lanius collurio” correspond à ces critères. C’est une espèce carnivore
qui migre tardivement et fait son nid dans les buissons qui a un niveau
de spécialisation agricole et qui s’alimente en vol.
Voici une image de la pie-grièche écorcheur
(Lanius collurio), wikipedia
unique_level <- unique(birds_info[, "Niveau.de.spécialisation"])
unique_regime <- unique(birds_info[, "Régime.alimentaire"])
unique_technique <- unique(birds_info[, "Technique.d.alimentation"])
unique_nidi <- unique(birds_info[, "Nidification"])
unique_migration <- unique(birds_info[, "Période.de.migration"])
plot_ly(data.frame(), type = "parcoords", line = list(color = "blue"), height = 950,
dimensions = list(
list(
label = "Espèces",
range = c(0, length(birds_info[, "Nom.latin"]) + 1),
tickvals = 1:length(birds_info[, "Nom.latin"]),
ticktext = birds_info[, "Nom.latin"],
values = 1:length(birds_info[, "Nom.latin"])
),
list(
label = "Technique d'alimentation",
range = c(0, length(unique_technique) + 1),
tickvals = as.numeric(factor(unique_technique)),
ticktext = unique_technique,
values = as.numeric(factor(birds_info[, "Technique.d.alimentation"]))
),
list(
label = "Nidification",
range = c(0, length(unique_nidi) + 1),
tickvals = as.numeric(factor(unique_nidi)),
ticktext = unique_nidi,
values = as.numeric(factor(birds_info[, "Nidification"]))
),
list(
label = "Niveau de spécialisation",
range = c(0, length(unique_level) + 1),
tickvals = as.numeric(factor(unique_level)),
ticktext = unique_level,
values = as.numeric(factor(birds_info[, "Niveau.de.spécialisation"]))
),
list(
label = "Période de migration",
range = c(0, length(unique_migration) + 1),
tickvals = as.numeric(factor(unique_migration)),
ticktext = unique_migration,
values = as.numeric(factor(birds_info[, "Période.de.migration"]))
),
list(
label = "Régime alimentaire",
range = c(0, length(unique_regime) + 1),
tickvals = as.numeric(factor(unique_regime)),
ticktext = unique_regime,
values = as.numeric(factor(birds_info[, "Régime.alimentaire"]))
)
)
) %>% layout(
title = "Caractéristiques des différentes espèces d'oiseaux",
margin = list(l = 140, r = 55)
)
LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
LUP <- LUP[, c(c("ID", "BufferSize"), paste0("MOS", 1:14))]
birds_obs <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
birds_obs <- birds_obs[, c(c("Code_Maille", "Date", "Nom_Taxon_Cite", "Denombrement_min"))]
birds_obs <- birds_obs %>%
rename(Year = Date, ID = Code_Maille, Latin = Nom_Taxon_Cite)
birds_obs[, "Year"] <- substr(birds_obs[, "Year"], start = 1, stop = 4)
birds_obs[, "Latin"] <- sapply(strsplit(birds_obs[, "Latin"], split = " | ", fixed = TRUE), function(x) x[1])
birds_obs <- birds_obs %>%
group_by(ID, Year, Latin) %>%
summarise(Sum = sum(Denombrement_min), .groups = "drop")
LUP_birds_obs <- merge(LUP, birds_obs, by = "ID")
unique_year <- unique(LUP_birds_obs[, "Year"])
unique_year <- unique_year[order(unique_year)]
ids <- c("Année", unique_year)
for (year in unique_year) {
ids <- c(ids, paste0(year, paste0(" - MOS", 1:14)))
}
for (year in unique_year) {
for (mos in paste0("MOS", 1:14)) {
for (specie in birds_info[, "Nom.latin"]) {
ids <- c(ids, paste0(year, paste0(paste0(" - ", mos), paste0(" - ", specie))))
}
}
}
labels <- c("Année", unique_year, rep(paste0("MOS", 1:14), times = length(unique_year)))
labels <- c(labels, rep(birds_info[, "Nom.latin"], times = 14 * length(unique_year)))
parents <- c("", rep("Année", times = length(unique_year)), rep(unique_year, each = 14))
for (year in unique_year) {
parents <- c(parents, paste0(year, rep(paste0(" - MOS", 1:14), each = length(birds_info[, "Nom.latin"]))))
}
values <- c(c(length(unique_year) * 14000, rep(14000, times = length(unique_year))), rep(1000, times = length(unique_year) * 14))
for (year in unique_year) {
for (mos in paste0("MOS", 1:14)) {
for (specie in birds_info[, "Nom.latin"]) {
tmp <- LUP_birds_obs[LUP_birds_obs["Year"] == year & LUP_birds_obs["Latin"] == specie & LUP_birds_obs["BufferSize"] == 500, ]
values <- c(values, sum(tmp[mos] * tmp["Sum"]))
}
tail_values <- values[(1 + length(values) - length(birds_info[, "Nom.latin"])):length(values)]
values[(1 + length(values) - length(birds_info[, "Nom.latin"])):length(values)] <- tail_values / sum(tail_values) * 1000
}
}
is_nan_values <- !is.na(values) & values != 0
ids <- ids[is_nan_values]
labels <- labels[is_nan_values]
parents <- parents[is_nan_values]
values <- values[is_nan_values]
Ci-dessous, vous trouverez un sunburst plot interactif qui illustre
la proportion des espèces d’oiseaux les plus couramment observées en
fonction de l’année et du MOS. Il est assez simple d’utilisation, il
suffit de cliquer sur les différentes parties du graphique pour obtenir
plus d’informations sur les espèces d’oiseaux les plus couramment
observées en fonction de l’année et du MOS.
plot_ly(
ids = ids,
labels = labels,
parents = parents,
values = values,
type = "sunburst",
branchvalues = "total",
maxdepth = 2,
insidetextorientation = "radial",
hoverinfo = "label+percent entry"
) %>% layout(
title = list(
text = "Proportion des espèces d'oiseaux les plus couramment observées<br>en fonction de l'année et du MOS",
y = 1.1
),
margin = list(t = 100)
)
---
title: "Projet stat pour données environnementales"
author: "Alexandre Leys, Baptiste Gerbouin, Hamad Tria, Louis Delignac, Théo Lavandier"
date: "`r format(Sys.Date(), '%d %B, %Y')`"
output:
  html_document:
    code_folding: hide
    code_download: true
    theme: united
    highlight: tango
    df_print: paged
    toc: true
    toc_float: true
    toc_depth: 2
  # pdf_document:
  #   toc: true
  #   toc_depth: 2
  #   number_sections: true
  #   df_print: kable
  #   highlight: tango
---

<style>
  .tocify-extend-page {
    display: none;
  }
</style>

# Introduction


Dans le cadre de notre projet de statistiques, nous travaillerons sur un jeu de données environnementales.
Ce jeu de données est composé de plusieurs fichiers qui contiennent des informations sur les oiseaux, les stations de mesure, les caractéristiques des oiseaux, leurs régimes alimentaires et la biodiversité.

Ce rapport a pour objectif de présenter les différentes analyses que nous avons réalisées sur ces données.
Il est composé de trois parties principales dans lesquelles nous explorons les relations entre la diversité des espèces d'oiseaux, l'artificialisation des sols et la distance avec le centre-ville de Bordeaux.
Nous avons également étudié les régimes alimentaires des oiseaux et les modes de nidification en fonction de certaines zones géographiques.

Vous trouverez des cartes, des graphiques, des tableaux, un sankie plot ainsi qu'un sunburst plot qui nous permettront de découvrir la mesure de la biodiversité.

L'ensemble de ces données sont tirées du travail des membres de l'INRAE unité BioGeCo et du bureau de télédetection I-sea.

Vous trouverez de nombreux résultats comme plusieurs courbes de diversité révélant la baisse significative de diversité dans les lieux les plus artificialisés.
Vous trouverez également l'entièreté de notre cheminement pour arriver à nos résultats statistiques, notamment concernant la distribution des espèces d'oiseaux observées en Gironde, mais aussi des statistiques multivariées et descriptives.

Nous vous invitons à découvrir l'ensemble de nos analyses et à explorer les différentes visualisations que nous avons réalisées pour mieux comprendre les relations entre les différentes variables de notre jeu de données.
Toutes nos visualisations sont interactives et vous permettent de zoomer, de déplacer et de cliquer sur les différents éléments pour obtenir plus d'informations.
Cela vous permettra d'avoir une expérience plus immersive et vous permettra de créer vos propres analyses, en parallèle à celles réalisées par nos soins.

```{r setup, message=FALSE, echo=FALSE, warning=FALSE}
# Packages de gestion des données
library(tidyverse)
library(sf)

# Packages pour visualisation des données
library(ggplot2)
library(ggspatial)
library(kableExtra)
library(lattice)
library(plotly)

# Packages pour visualisation de cartes intéractives
library(leaflet)
library(leafpop)
library(leaflet.extras)

#ACP
library(FactoMineR)
library(factoextra)

knitr::opts_chunk$set(out.width = "100%", echo = TRUE)
```




# Exploration des données


Pour commencer, nous chargeons les données et nous les explorons pour mieux comprendre leur structure.
Dans un premier temps, nous allons ajouter une colonne à notre DataFrame qui contient les noms latins des oiseaux afin de facilliter les analyses par la suite.
```{r}
oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LE NOM LATIN DE L'OISEAU
my_split <- function(array, str = " \\| ") {
  out <- rep(NA, length(array))
  for (i in 1:length(array)) {
    out[i] <- unlist(strsplit(array[i], str))[1]
  }
  return(out)
}

only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))

oiseaux$latin <- only_latin
oiseaux$annee <- as.numeric(substr(oiseaux$Date, 1, 4))
```


Par la suite, nous allons explorer les données pour mieux comprendre la distribution des espèces d'oiseaux observées.
Voici un tableau qui montre les 10 espèces d'oiseaux les plus fréquemment observées dans l'ensemble des données.
```{r}
# LES ESPÈCES D'OISEAUX LES PLUS FRÉQUENTES OBSERVÉES DANS L'ENSEMBLE DES DONNÉES
as.data.frame(sort(table(oiseaux$latin), decreasing = TRUE)[1:10])
```

Nous allons maintenant explorer la fréquence des espèces d'oiseaux observées dans l'ensemble des données par année.
Voici, par ordre alphabétique, le tableau mettant en évidence cette fréquence.

```{r}
# FRÉQUENCE DES ESPÈCES D'OISEAUX OBSERVÉES DANS L'ENSEMBLE DES DONNÉES PAR ANNÉE
Annee <- my_split(as.vector(oiseaux$Date), str = "-")
oiseaux$Annee <- as.factor(Annee)
as.data.frame.matrix(table(oiseaux$latin, oiseaux$Annee))
```


Dans cette partie, nous allons explorer la mesure de la diversité à à l'aide de plusieurs entropies.
Nous nous intéresserons uniquement au MOS11, c'est à dire les surfaces artificialisées. On prend comme buffer size 500m.

Dans un premier temps, nous allons utiliser la proportion d’espèces différentes observées dans une station pour mesurer la diversité. Dans un deuxième temps, nous allons utiliser l’entropie de Shannon et enfin l'indice de Simpson.

```{r, message=FALSE, warning=FALSE}
## Analyse de diversité par rapport à MOS11 et par année

denombrement <- oiseaux %>%
  group_by(Code_Maille, annee, latin) %>%
  summarise(sum = sum(Denombrement_min, na.rm = TRUE), .groups = "drop") %>%
  arrange(desc(Code_Maille))

denombrement$p <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  numerator <- denombrement$sum[i]
  denominator <-
    sum(denombrement$sum[which(denombrement$Code_Maille == denombrement$Code_Maille[i]
                               & denombrement$annee == denombrement$annee[i])])
  denombrement$p[i] <- numerator / denominator
}

index <- denombrement %>%
  group_by(Code_Maille, annee = factor(annee)) %>%
  summarise(D1 = sum(p > 0, na.rm = TRUE),
            D2 = exp(-sum(p * log(p))),
            D3 = 1 / sum(p^2), .groups = "drop") %>%
  arrange(desc(Code_Maille))

LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
index$MOS11 <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
  index$MOS11[i] <- LUP$MOS11[which(index$Code_Maille[i] == LUP$ID & LUP$BufferSize == 500)]
}
```

Voici le graphique qui montre la relation entre la diversité et MOS11 pour chaque année expliquée par la proportion d'espèces.
```{r, message=FALSE, warning=FALSE, error=FALSE}
ggplot(index, aes(x = MOS11, y = D1, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = " Proportion d’espèces en fonction de MOS11",
       x = "MOS11",
       y = "Nombre d\'espèces") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")
```

Ceci est le graphique qui montre la relation entre la diversité et MOS11 pour chaque année expliquée par l'entropie de Shannon.
```{r, message=FALSE, warning=FALSE, error=FALSE}
ggplot(index, aes(x = MOS11, y = D2, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Indice de Shanon en fonction de MOS11",
       x = "MOS11",
       y = "Indice de Shanon") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")
```

Ceci est le graphique qui montre la relation entre la diversité et MOS11 pour chaque année expliquée par l'indice de Simpson.
```{r, message=FALSE, warning=FALSE, error=FALSE}
ggplot(index, aes(x = MOS11, y = D3, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Indice de Simpson en fonction de MOS11",
       x = "MOS11",
       y = "Indice de Simpson") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")
```

La tendance globale est l'augmentation de la diversité au début de la courbe jusqu'à atteindre un maximum puis une baisse quand le MOS11 augmente davantage. C'est-à-dire que, moins les sols sont artificialisés, plus la diversité est grande avec une diversité maximale atteinte quand le milieu est à la fois artificialisé mais présente également des surfaces non artificialisées. 


Notre deuxième partie se portera sur l'analyse de la diversité des espèces d'oiseaux en fonction de la distance avec le centre-ville de Bordeaux.
On observera une tendance de diversité par rapport à la distance de la maille avec le centre ville qui diffère légèrement par rapport aux résultats ci-dessus.
Pour ce faire, nous allons calculer toutes les distances de chaque maille à PeyBerland, qui sera notre point référent pour le centre. 

# Tendance de diversité par rapport à la distance avec le centre-ville

```{r}
PeyBerland <- data.frame("Latitude" = 44.838168, "Longitude" = -0.578803)

# On convertit les coordonnées de PeyBerland en sf

PeyBerland <- st_as_sf(PeyBerland, coords = c("Longitude", "Latitude"), crs = 4326)

# On va créer un dataframe qui contient les coordonnées de toutes les stations code_maille

coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)

# On va transformer les coordonnées de 2154 à 4326

coordinates <- st_transform(coordinates, crs = 4326)

# On va calculer les distances entre les stations et le centre ville PeyBerland

coordinates$Distance <- st_distance(coordinates, PeyBerland)
```

On ajoute les distances à nos données de diversité. 

```{r, message=FALSE}
index$Distance <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
  index$Distance[i] <- coordinates$Distance[which(index$Code_Maille[i] == coordinates$ID & coordinates$BufferSize == 500)]
}

par(mfrow = c(1, 3))
```

Pour faire l'analyse, on utilise les trois mesures de diversité que nous avons utilisées précédemment.

Voici la courbe de diversité expliquée par la proportion d'espèces.
```{r}
ggplot(index, aes(x = Distance, y = D1, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "D1 en fonction de la distance au centre-ville",
       x = "Distance",
       y = "D1") +
  theme_minimal() +
  theme(legend.position = "bottom")
```


Voici la courbe de diversité expliquée par l'entropie de Shannon.
```{r}
ggplot(index, aes(x = Distance, y = D2, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "D2 en fonction de la distance au centre-ville",
       x = "Distance",
       y = "D2") +
  theme_minimal() +
  theme(legend.position = "bottom")
```

Voici la courbe de diversité expliquée par l'indice de Simpson.
```{r}
ggplot(index, aes(x = Distance, y = D3, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "D3 en fonction de la distance au centre-ville",
       x = "Distance",
       y = "D3") +
  theme_minimal() +
  theme(legend.position = "bottom")
```

La tendance globale est l'augmentation de la diversité au début de la courbe jusqu'à atteindre un maximum puis une baisse quand la distance avec le centre-ville augmente davantage. Nous pouvons voir que pour nos trois mesures de diversité, le pic est atteint à environ 9km. La diversité est donc plus grande lorsque la maille se trouver à environ 9km du centre-ville.
Nous retrouvons donc la même observation qu'avec la variable d'artificialisation des sols (MOSS11), car l'artificialisation des sols et la distance avec le centre ville sont positivement corrélées (peut-etre essayer de mesurer la correlation entre ces deux variables sur nos données)


Par la suite, l'objectif va être de comprendre pourquoi ce pic de diversité des espèces est observé à ce pourcentage d'artificialisation. Pour ce faire, nous allons introduire un nouveau jeu de données sur les caractéristiques des espèces d'oiseaux.
Nous allons combiner ce jeu de données avec les autres jeux de données afin d'en tirer des analyses, principalement grâce à des cartes interactives. 


```{r}
oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
```

```{r}
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LE NOM LATIN DE L'OISEAU
# LE NOM LATIN EST LE PREMIER NOM DE LA COLONNE "Nom_Taxon_Cite
# SI LE NOM CONTIENT UN "|", LE NOM LATIN EST LE PREMIER NOM AVANT LE "|"

# Diviser les noms
my_split <- function(array, str = " \\| ") {
  out <- rep(NA, length(array))
  for (i in 1:length(array)) {
    out[i] <- unlist(strsplit(array[i], str))[1]
  }
  return(out)
}

# Tester la fonction
only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))

# On ajoute la nouvelle colonne au dataframe
oiseaux$latin <- only_latin
```

Voici le tableau qui représente le MOS11 pour chaque station de mesure.
Cette mesure nous indique à quel point le sol est artificialisé.
```{r}
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LA VALEUR MOS11 DU POINT
filter <- LUP$BufferSize == 500
LUP_500_MOS11 <- LUP[filter, c("Geometry", "ID", "X", "Y", "BufferSize", "MOS11")]
rownames(LUP_500_MOS11) <- 1:nrow(LUP_500_MOS11)
LUP_500_MOS11[, c("ID", "MOS11")]

MOS11 <- rep(NA, nrow(oiseaux))
for (i in 1:nrow(oiseaux)) {
  MOS11[i] <- which(oiseaux$Code_Maille[i] == LUP_500_MOS11$ID)
}

# Ajouter la colonne MOS11 au dataframe
oiseaux$MOS11 <- LUP_500_MOS11$MOS11[MOS11]
```


# Analyses intéractives et géographiques


```{r message=FALSE, warning=FALSE}
oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
# CREATE A NEW COLUMN IN THE OISEAUX DATAFRAME THAT CONTAINS THE LATIN NAME OF THE BIRD
my_split <- function(array, str = " \\| ") {
  out <- rep(NA, length(array))
  for (i in 1:length(array)) {
    out[i] <- unlist(strsplit(array[i], str))[1]
  }
  return (out)
}

only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))
# length(unique(only_latin)) == length(unique(oiseaux$Code_Ref))

oiseaux$latin <- only_latin
oiseaux$annee <- as.numeric(substr(oiseaux$Date, 1, 4))

denombrement <- oiseaux %>%
  group_by(Code_Maille, annee, latin) %>%
  summarise(sum = sum(Denombrement_min, na.rm = TRUE), .groups = 'drop') %>%
  arrange(desc(Code_Maille))

denombrement$p <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  numerator <- denombrement$sum[i]
  denominator <- 
    sum(denombrement$sum[which(denombrement$Code_Maille == denombrement$Code_Maille[i] 
                               & denombrement$annee == denombrement$annee[i])])
  denombrement$p[i] <- numerator / denominator
}

index <- denombrement %>%
  group_by(Code_Maille, annee = factor(annee)) %>%
  summarise(D1 = sum(p > 0, na.rm = TRUE), 
            D2 = exp(-sum(p*log(p))), 
            D3 = 1 / sum(p^2), .groups = 'drop') %>%
  arrange(desc(Code_Maille))

LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
index$MOS11 <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
  index$MOS11[i] <- LUP$MOS11[which(index$Code_Maille[i] == LUP$ID & LUP$BufferSize == 1000)]
}


traits <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
cite <- read.csv("data/birds/BiodiverCite_sites.csv", header = TRUE, sep=";")

#on veut traiter la table dénombrement qu'on appelera denombrementCarte où il restera pour chaque maille et pour chaque année le top 3 des oiseaux les plus observés sans la variable p

denombrementCarte <- denombrement %>%
  group_by(Code_Maille, annee) %>%
  top_n(3, sum) %>%
  arrange(Code_Maille, annee, desc(sum)) %>%
  ungroup() %>%
  select(-p)


#on veut changer cette table pour faire apparaitre de nouvelles colonnes pour qu'il y ait : une ligne par maille et par année, et pour chaque oiseau, le nombre d'individus observés

denombrementCarte <- denombrementCarte %>%
  pivot_wider(names_from = latin, values_from = sum, values_fill = 0)


#on veut ajouter les colonnes geometry, buffer size et MOS11 à la table denombrementCarte et pas les autres

denombrementCarte <- left_join(denombrementCarte, LUP, by = c("Code_Maille" = "ID"))

#on enlève les colonnes : MOS1, MOS2, MOS3, MOS4, MOS5, MOS6, MOS7, MOS8, MOS9, MOS10, MOS12, MOS13, MOS14

denombrementCarte <- denombrementCarte %>%
  select(-c(MOS1, MOS2, MOS3, MOS4, MOS5, MOS6, MOS7, MOS8, MOS9, MOS10, MOS12, MOS13, MOS14))

# On garde que les lignes ou BufferSize == 500
denombrementCarte <- denombrementCarte %>%
  filter(BufferSize == 500)

denombrementCarte <- st_as_sf(denombrementCarte, coords = c("X", "Y"), crs = 2154)
denombrementCarte <- st_transform(denombrementCarte, crs = 4326)

# On garde seuelement les valeurs ou annee = 2018

denombrementCarte <- denombrementCarte %>%
  filter(annee == 2023)

denombrementCarte
```
Grâce à ce tableau, nous pouvons voir comment les données sont structurées et remarquer notamment qu'il classe le nombre d'oiseaux par maille et par année.


Dans la suite de ce rapport vous trouverez des analyses géographiques et interactives qui vous permettront de visualiser comment les oiseaux de la Gironde évoluent en fonction de l'artificialisation des sols.
Vous y trouverez des analyses sur les régimes alimentaires des oiseaux, les niveaux de spécialisation des oiseaux en fonction de leur habitat (Maille).

Voici la carte interactive qui montre les mailles de mesure et les oiseaux les plus observés dans chaque maille.
Nous vous invitons à cliquer sur les cercles pour obtenir toutes les informations sur les oiseaux.
```{r message=FALSE, warning=FALSE}
# On garder que les colonnes qui nous intéressent, cad code_site et Nom_lieu

cite <- read.csv("data/birds/BiodiverCite_sites.csv", header = TRUE, sep=";")
cite <- cite %>%
  select(code_site, Nom_lieu)

#On join les deux tables cite et denombrementCarte

denombrementCarte <- left_join(denombrementCarte, cite, by = c("Code_Maille" = "code_site"))

# Créer une chaîne de caractères pour les popups avec le top trois des oiseaux ayant la plus grande valeur
denombrementCarte$popup_text <- paste0("<strong>Maille:</strong> ", denombrementCarte$Nom_lieu, "<br>",
                                      "<strong>Année:</strong> ", denombrementCarte$annee, "<br>",
                                      "<strong>Top 3 des oiseaux:</strong>", "<br>")

dataframe <- as.data.frame(denombrementCarte)

# On enleve les colonnes Code_Maille, annee, BufferSize, MOS11, Geometry, geometry
dataframe <- dataframe %>%
  select(-c(Code_Maille, annee, BufferSize, MOS11, Geometry, geometry, Nom_lieu))

# Ajouter les noms des oiseaux et leurs valeurs au popup_text pour chaque ligne
for (i in 1:nrow(dataframe)) {
  top_birds <- sort(unlist(dataframe[i, -c(ncol(dataframe))]), decreasing = TRUE)[1:3]
  top_bird_names <- names(top_birds)
  denombrementCarte$popup_text[i] <- paste0(denombrementCarte$popup_text[i],
                                            top_bird_names[1], ": ", top_birds[1], " - ", traits[which(traits$Nom.latin == top_bird_names[1]), "Niveau.de.spécialisation"], "<br>",
                                            top_bird_names[2], ": ", top_birds[2], " - ", traits[which(traits$Nom.latin == top_bird_names[2]), "Niveau.de.spécialisation"], "<br>",
                                            top_bird_names[3], ": ", top_birds[3], " - ", traits[which(traits$Nom.latin == top_bird_names[3]), "Niveau.de.spécialisation"])
}

pal <- colorNumeric("viridis", domain = denombrementCarte$MOS11)


leaflet(data = denombrementCarte) %>%
  addProviderTiles("CartoDB.Positron") %>%
  addCircles(radius = 300, color = ~pal(MOS11), fillOpacity = 0.2, popup = ~popup_text) %>%
  addLegend("bottomright", pal = pal, values = ~MOS11, title = "MOS11", position = "bottomright") %>%
  addScaleBar(position = "bottomleft")
```
Grâce à cette carte, nous obtenons le classement (Top 3) des oiseaux les plus observés dans chaque maille de mesure pour l'année 2023.
Nous avons également ajouté une information supplémentaire sur chaque oiseau pour mettre en évidence son niveau de spécialisation afin de mieux comprendre de quel type de milieu il a besoin pour vivre et la géolocalisation sur la Gironde.

Nous pouvons voir que le niveau de spécialisation le plus répendu est généraliste car on en retrouve au centre-ville et en périphérie.
Egalement, au centre ville, on retrouve des oiseaux de type Bâti et en périphérie loins du centre-ville, on retrouve des oiseaux de type Fôret et Agricole. Proche des points d'eau, on trouve des oiseaux de type Zone humide. 

Ainsi, les zones qui combinent à la fois végétation et bâtiments seraient plus susceptibles d'accueillir des oiseaux avec des niveaux de spécialisation variés, ce qui expliquerait l'augmentation du taux de diversité observée dans les zones où se mélangent espaces verts et zones urbanisées.

Il nous semblait intéressant de savoir quels étaient les régimes alimentaires majoritaires principaux en fonction de chaque maille.
Nous avons donc créé un graphique qui montre la répartition des régimes alimentaires pour chaque maille.

```{r}
# changed the unmatchinng latin names to the correct ones to match alimentation
denombrement$latin[denombrement$latin == "Carduelis chloris"] <- "Chloris chloris"
denombrement$latin[denombrement$latin == "Carduelis spinus"] <- "Spinus spinus"
denombrement$latin[denombrement$latin == "Casmerodius albus"] <- "Ardea alba"
denombrement$latin[denombrement$latin == "Carduelis cannabina"] <- "Linaria cannabina"
no_info <- c("Himantopus himantopus", "Tringa ochropus", 
             "Caprimulgus europaeus", "Lanius senator", 
             "Dryocopus martius", "Emberiza calandra")

alimentation <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
denombrement$regime_alimentaire <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  if (denombrement$latin[i] %in% no_info){
    denombrement$regime_alimentaire[i] <- NA
  }
  else {
    denombrement$regime_alimentaire[i] <- 
      alimentation$Régime.alimentaire[which(alimentation$Nom.latin == denombrement$latin[i])]
  }
}
denombrement$regime_alimentaire <- as.factor(denombrement$regime_alimentaire)

plot_data = function (data, title) {
    ggplot(data, aes(x="", y=sum, fill=regime_alimentaire)) +
    geom_bar(stat="identity", width=0.1) +
    coord_polar("y", start=0) +
    ggtitle(paste("Station: ", as.character(title))) +
    theme_void()
}

cite <- cite %>%
  select(code_site, Nom_lieu)

#On join les deux tables cite et denombrementCarte

denombrement <- left_join(denombrement, cite, by = c("Code_Maille" = "code_site"))

N <- length(unique(denombrement$Code_Maille))
p <- vector("list", length = N)

for (i in 1:N) {
    data <- denombrement[which(denombrement$Code_Maille == unique(denombrement$Code_Maille)[i]),]
    data <- data %>% group_by(regime_alimentaire) %>% summarise(sum = sum(p, na.rm = TRUE))
    p[[i]] <- plot_data(data, unique(denombrement$Nom_lieu)[i])
}

coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)
coordinates <- st_transform(coordinates, crs = 4326)
coordinates <- coordinates[coordinates$BufferSize == 500,]

# Remove the coordinates that are not in denombrement
for (i in seq_along(coordinates$ID)){
  if (!(coordinates$ID[i] %in% unique(denombrement$Code_Maille))){
    coordinates <- coordinates[-i,]
  }
}

coordinates <- coordinates[order(coordinates$ID, decreasing = TRUE),]

pal <- colorNumeric("viridis", domain = coordinates$MOS11)
leaflet(data = coordinates) %>%
  addProviderTiles("CartoDB.Positron") %>%
  addCircles(radius = 300, color = ~pal(MOS11), 
             fillOpacity = 0.5, group = "pnt") %>%
  addLegend("bottomright", pal = pal, values = coordinates$MOS11, title = "MOS11") %>%
  addScaleBar(position = "bottomleft") %>% 
  addPopupGraphs(p, width = 200, height = 200, group = "pnt")
```

Voici à quoi ressemble la carte interactive qui montre les régimes alimentaires majoritaires principaux en fonction de chaque maille. Nous pouvons voir qu'en général, le régime alimentaire dominant est le régime alimentaire mixte, que cela soit au centre de Bordeaux ou en périphérie. Il semble donc que le régime alimentaire de l'oiseau ne soit pas véritablement impacté par l'artificialisation des sols.
Essayons maintenant d'étudier d'autre caratéristiques afin d'essayer de trouver des raisons à ce pic de diversité.

```{r}
denombrement$Nidification <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  if (denombrement$latin[i] %in% no_info){
    denombrement$Nidification[i] <- NA
  }
  else {
    denombrement$Nidification[i] <- 
      alimentation$Nidification[which(alimentation$Nom.latin == denombrement$latin[i])]
  }
}
denombrement$Nidification <- as.factor(denombrement$Nidification)

plot_data = function (data, title) {
    ggplot(data, aes(x="", y=sum, fill=Nidification)) +
    geom_bar(stat="identity", width=0.1) +
    coord_polar("y", start=0) +
    ggtitle(paste("Station: ", as.character(title))) +
    theme_void()
}

#On join les deux tables cite et denombrementCarte

N <- length(unique(denombrement$Code_Maille))
p <- vector("list", length = N)

for (i in 1:N) {
    data <- denombrement[which(denombrement$Code_Maille == unique(denombrement$Code_Maille)[i]),]
    data <- data %>% group_by(Nidification) %>% summarise(sum = sum(p, na.rm = TRUE))
    p[[i]] <- plot_data(data, unique(denombrement$Nom_lieu)[i])
}

coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)
coordinates <- st_transform(coordinates, crs = 4326)
coordinates <- coordinates[coordinates$BufferSize == 500,]

# Remove the coordinates that are not in denombrement
for (i in seq_along(coordinates$ID)){
  if (!(coordinates$ID[i] %in% unique(denombrement$Code_Maille))){
    coordinates <- coordinates[-i,]
  }
}

coordinates <- coordinates[order(coordinates$ID, decreasing = TRUE),]

pal <- colorNumeric("viridis", domain = coordinates$MOS11)
leaflet(data = coordinates) %>%
  addProviderTiles("CartoDB.Positron") %>%
  addCircles(radius = 300, color = ~pal(MOS11), 
             fillOpacity = 0.5, group = "pnt2") %>%
  addLegend("bottomright", pal = pal, values = coordinates$MOS11, title = "MOS11") %>%
  addScaleBar(position = "bottomleft") %>% 
  addPopupGraphs(p, width = 200, height = 200, group = "pnt2")
```


Cette carte illustre la répartition des types de nidification en fonction des zones géographiques. Il est observé que dans les zones centrales, la majorité des nids sont situés dans des cavités, ce qui peut être attribué à la densité élevée de bâtiments et à la rareté de la végétation en ville. Le mode de nidification au sol est le moins courant dans ces zones, probablement en raison de la faible probabilité de survie des oiseaux dans un environnement urbain avec un nid au sol.  

En périphérie, les modes de nidification semblent plus diversifiés, avec une prédominance de la nidification en buisson. La nidification dans les arbres est également très répandue, et on retrouve aussi la nidification en cavité. Le fait de ne pas être situé directement au centre-ville semble offrir plus de possibilités de nidification, ce qui pourrait expliquer une plus grande diversité d'espèces si on s'éloigne légèrement du centre ville, grâce à une combinaison de bâtiments et de végétation offrant plus de choix pour la nidification.




# Analyse en Composante Principale (ACP)

```{r}
pca_result <- PCA(LUP[, 6:19], scale.unit = TRUE, graph = FALSE)
fviz_eig(
  pca_result,
  addlabels = TRUE,
  ncp = 14
)
```

```{r}
fviz_pca_var(
  pca_result,
  col.var = "contrib",
  gradient.cols = rainbow(5),
  legend.title = "Contribution (%)",
  repel = TRUE
)
```

```{r}
fviz_pca_ind(
  pca_result,
  repel = FALSE
)
fviz_pca_biplot(
  pca_result,
  repel = FALSE,
  col.var = "#E50000"
)
```

```{r}
birds_info <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
birds_info <- birds_info[, c(
  "Nom.latin",
  "Niveau.de.spécialisation",
  "Régime.alimentaire",
  "Technique.d.alimentation",
  "Nidification",
  "Période.de.migration"
)]

denombrement
LUP
```


# Pour aller plus loin

Cette section est dédiée à des analyses plus poussées qui pourraient être réalisées pour mieux comprendre les données et les relations entre les différentes variables.
Vous trouverez un Parallel Coordinates Plot ainsi qu'un sun burst plot qui illustrent les caractéristiques des différentes espèces d'oiseaux.


Voici, ci-dessous le Parallel Coordinates Plot intéractif.
Vous pouvez cliquer sur les différentes espèces pour obtenir plus d'informations sur chacune d'elles.

Exemple d'utilisation : 

- Nous voulons savoir le régime alimentaire des oiseaux qui migrent. 
Pour cela, il suffit de cliquer au niveau de "migrateur tardif" et de cliquer sur "Végétarien", "Mixte" ou "carnivore" pour obtenir les espèces d'oiseaux qui correspondent à ces critères.
Ceci est très utile lorsqu'on veut comparer le nombre d'oiseau selon les caractéristiques choisies ou même simplement rechercher l'espèce qui correspond à certains critères que l'on veut étudier.
Pour finir l'exemple, si on clique au niveau de "Migrateur tardif", on remarque qu'aucun oiseau n'est végétarien.
De plus, on peut affiner notre sélection pour voir quelles espèces d'oiseaux sont des migrateurs tardifs et font leur nid dans les buissons.
On clique ainsi sur buisson et on voit que l'espèce "Lanius collurio" correspond à ces critères.
C'est une espèce carnivore qui migre tardivement et fait son nid dans les buissons qui a un niveau de spécialisation agricole et qui s'alimente en vol.


<center>
  ![Voici une image de la pie-grièche écorcheur (Lanius collurio), wikipedia](./image/lanius.jpg)
</center>

```{r}
unique_level <- unique(birds_info[, "Niveau.de.spécialisation"])
unique_regime <- unique(birds_info[, "Régime.alimentaire"])
unique_technique <- unique(birds_info[, "Technique.d.alimentation"])
unique_nidi <- unique(birds_info[, "Nidification"])
unique_migration <- unique(birds_info[, "Période.de.migration"])

plot_ly(data.frame(), type = "parcoords", line = list(color = "blue"), height = 950,
  dimensions = list(
    list(
      label = "Espèces",
      range = c(0, length(birds_info[, "Nom.latin"]) + 1),
      tickvals = 1:length(birds_info[, "Nom.latin"]),
      ticktext = birds_info[, "Nom.latin"],
      values = 1:length(birds_info[, "Nom.latin"])
    ),
    list(
      label = "Technique d'alimentation",
      range = c(0, length(unique_technique) + 1),
      tickvals = as.numeric(factor(unique_technique)),
      ticktext = unique_technique,
      values = as.numeric(factor(birds_info[, "Technique.d.alimentation"]))
    ),
    list(
      label = "Nidification",
      range = c(0, length(unique_nidi) + 1),
      tickvals = as.numeric(factor(unique_nidi)),
      ticktext = unique_nidi,
      values = as.numeric(factor(birds_info[, "Nidification"]))
    ),
    list(
      label = "Niveau de spécialisation",
      range = c(0, length(unique_level) + 1),
      tickvals = as.numeric(factor(unique_level)),
      ticktext = unique_level,
      values = as.numeric(factor(birds_info[, "Niveau.de.spécialisation"]))
    ),
    list(
      label = "Période de migration",
      range = c(0, length(unique_migration) + 1),
      tickvals = as.numeric(factor(unique_migration)),
      ticktext = unique_migration,
      values = as.numeric(factor(birds_info[, "Période.de.migration"]))
    ),
    list(
      label = "Régime alimentaire",
      range = c(0, length(unique_regime) + 1),
      tickvals = as.numeric(factor(unique_regime)),
      ticktext = unique_regime,
      values = as.numeric(factor(birds_info[, "Régime.alimentaire"]))
    )
  )
) %>% layout(
  title = "Caractéristiques des différentes espèces d'oiseaux",
  margin = list(l = 140, r = 55)
)
```


```{r}
LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
LUP <- LUP[, c(c("ID", "BufferSize"), paste0("MOS", 1:14))]

birds_obs <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
birds_obs <- birds_obs[, c(c("Code_Maille", "Date", "Nom_Taxon_Cite", "Denombrement_min"))]
birds_obs <- birds_obs %>%
  rename(Year = Date, ID = Code_Maille, Latin = Nom_Taxon_Cite)

birds_obs[, "Year"] <- substr(birds_obs[, "Year"], start = 1, stop = 4)
birds_obs[, "Latin"] <- sapply(strsplit(birds_obs[, "Latin"], split = " | ", fixed = TRUE), function(x) x[1])

birds_obs <- birds_obs %>%
  group_by(ID, Year, Latin) %>%
  summarise(Sum = sum(Denombrement_min), .groups = "drop")

LUP_birds_obs <- merge(LUP, birds_obs, by = "ID")
```

```{r}
unique_year <- unique(LUP_birds_obs[, "Year"])
unique_year <- unique_year[order(unique_year)]

ids <- c("Année", unique_year)
for (year in unique_year) {
  ids <- c(ids, paste0(year, paste0(" - MOS", 1:14)))
}

for (year in unique_year) {
  for (mos in paste0("MOS", 1:14)) {
    for (specie in birds_info[, "Nom.latin"]) {
      ids <- c(ids, paste0(year, paste0(paste0(" - ", mos), paste0(" - ", specie))))
    }
  }
}

labels <- c("Année", unique_year, rep(paste0("MOS", 1:14), times = length(unique_year)))
labels <- c(labels, rep(birds_info[, "Nom.latin"], times = 14 * length(unique_year)))

parents <- c("", rep("Année", times = length(unique_year)), rep(unique_year, each = 14))
for (year in unique_year) {
  parents <- c(parents, paste0(year, rep(paste0(" - MOS", 1:14), each = length(birds_info[, "Nom.latin"]))))
}

values <- c(c(length(unique_year) * 14000, rep(14000, times = length(unique_year))), rep(1000, times = length(unique_year) * 14))
for (year in unique_year) {
  for (mos in paste0("MOS", 1:14)) {
    for (specie in birds_info[, "Nom.latin"]) {
      tmp <- LUP_birds_obs[LUP_birds_obs["Year"] == year & LUP_birds_obs["Latin"] == specie & LUP_birds_obs["BufferSize"] == 500, ]
      values <- c(values, sum(tmp[mos] * tmp["Sum"]))
    }
    tail_values <- values[(1 + length(values) - length(birds_info[, "Nom.latin"])):length(values)]
    values[(1 + length(values) - length(birds_info[, "Nom.latin"])):length(values)] <- tail_values / sum(tail_values) * 1000
  }
}

is_nan_values <- !is.na(values) & values != 0
ids <- ids[is_nan_values]
labels <- labels[is_nan_values]
parents <- parents[is_nan_values]
values <- values[is_nan_values]
```


Ci-dessous, vous trouverez un sunburst plot interactif qui illustre la proportion des espèces d'oiseaux les plus couramment observées en fonction de l'année et du MOS.
Il est assez simple d'utilisation, il suffit de cliquer sur les différentes parties du graphique pour obtenir plus d'informations sur les espèces d'oiseaux les plus couramment observées en fonction de l'année et du MOS.

```{r}
plot_ly(
  ids = ids,
  labels = labels,
  parents = parents,
  values = values,
  type = "sunburst",
  branchvalues = "total",
  maxdepth = 2,
  insidetextorientation = "radial",
  hoverinfo = "label+percent entry"
) %>% layout(
  title = list(
    text = "Proportion des espèces d'oiseaux les plus couramment observées<br>en fonction de l'année et du MOS",
    y = 1.1
  ),
  margin = list(t = 100)
)
```

# Conclusion